El razonamiento latente en TRMs es un operador de mejora de política En TRMs, el razonamiento latente actúa como operador de mejora de política. Con RL y difusión, reducimos 18x los pasos. 2026-06-02 · 2 min